[计量] 多重共线性

这是一篇关于多重共线性的介绍

Posted by Leung ZhengHua on 2017-10-15

本文总点击量

定义

完全共线性:k个变量如果满足以下条件,我们说它存在一个准确的线性关系:$\lambda_1 X_1+\lambda_2 X_2+…+\lambda_k X_k=0$,其中$\lambda_1,\lambda_2,…,\lambda_k$ 为常数,但不同时为0。

多重共线性:$X$变量之间彼此相关,但又不完全相关,$\lambda_1 X_1+\lambda_2 X_2+…+\lambda_k X_k+v_i=0$,其中$v_i$是随机误差项。

多重共线性的侦察

  • 散点图。可以直观查看变量两两之间的线性相关关系
  • 高$R^2$,只有少数变量的$t$值是显著的,$F$值却显示方程整体显著
  • 回归元之间存在高度的两两相关,但低的相关系数也可能存在多重共线性
  • 辅助回归。对每一个$X_i$对其余$X$变量做回归,判决系数记为$R^2$,变量$F_i=\frac{R_i^2/(k-1)}{(1-R_i^2)/(n-(k-1))}\sim F(k-2,n-k+1)$,F值超过指定显著性水平下的临界值表明这个$X_i$和其余变量之间存在共线性,但存在共线性不代表要在回归模型中删去这个变量。
  • 本征值和病态指数。$k=\frac{\text{最大特征根}}{\text{最小特征根}}$,$CI=\sqrt{\frac{\text{最大本征值}}{\text{最小本征值}}}=\sqrt{k}$,当$k>1000$时就算有严重的多重共线性。
  • 容许度与方差膨胀因子。方差膨胀因子$VIF_i=\frac{1}{1-R_j^2}$,容许度$TOL_j=1-R_j^2$,$R_j^2$是变量$X_j$对其余变量做辅助回归的判定系数,当$R_j^2>0.90$,一个变量的$VIF$超过10可以认为存在高度共线性。

估计问题

完全多重共线性

无法得到个别回归系数的唯一解,且其方差和标准误无穷大

高度多重共线性

  • 多重共线性并没有违反经典模型的假定,OLS估计量仍然是BLUE,但其方差和协方差偏大
  • 置信区间比较宽,以致于接受虚拟假设更容易
  • 一个或多个回归系数的t比率倾向于在统计上不显著
  • t比率不显著,但总的拟合优度$R^2$仍可能非常高
  • 新数据进入会对估计量和标准误产生巨大的影响

解决办法

剔除变量与设定偏误

从模型中剔除一个变量,可能导致设定偏误,多重共线性虽有碍于模型参数的准确估计,但剔除变量则对参数的真值有严重的误导而不是适当的修正(剔除变量等价于参数为0)。

变量替换(差分、比率变换)

如果干扰项原本序列无关,序列的数据差分之后在多数情况下将会序列相关。因此,治疗比疾病更糟糕。

补充新数据

多重共线性通常是一个样本特性,有可能在关于同样变量的另一个样本中没有那么严重。随着样本量的增加,估计系数的方差将减小,从而降低标准误。

多项式回归

在实际中,若果将解释变量表达为离差形式(即对均值的离差),多重共线性就可以大为降低。

因子分析、岭回归

同过变量选择和降维的技术可以解决多重共线性的问题。